We present MEM: Multi-view Exploration Maximization for tackling complex visual control tasks. To the best of our knowledge, MEM is the first approach that combines multi-view representation learning and intrinsic reward-driven exploration in reinforcement learning (RL). More specifically, MEM first extracts the specific and shared information of multi-view observations to form high-quality features before performing RL on the learned features, enabling the agent to fully comprehend the environment and yield better actions. Furthermore, MEM transforms the multi-view features into intrinsic rewards based on entropy maximization to encourage exploration. As a result, MEM can significantly promote the sample-efficiency and generalization ability of the RL agent, facilitating solving real-world problems with high-dimensional observations and spare-reward space. We evaluate MEM on various tasks from DeepMind Control Suite and Procgen games. Extensive simulation results demonstrate that MEM can achieve superior performance and outperform the benchmarking schemes with simple architecture and higher efficiency.
translated by 谷歌翻译
探索对于具有高维观察和稀疏奖励的复杂环境中的深度强化学习至关重要。为了解决这个问题,最新的方法旨在利用内在的奖励来改善勘探,例如基于新颖的探索和基于预测的探索。但是,许多固有的奖励模块需要复杂的结构和表示学习,从而导致了过度的计算复杂性和不稳定的性能。在本文中,我们提出了一种有益的情节访问差异(REVD),这是一种计算有效且量化的探索方法。更具体地说,REVD通过评估情节之间的基于R \'Enyi Divergence的访问差异来提供内在的奖励。为了进行有效的差异估计,使用随机定义状态编码器使用K-Nearest邻居估计器。最后,在Pybullet机器人环境和Atari游戏上测试了REVD。广泛的实验表明,REVD可以显着提高强化学习算法的样本效率,并优于基准测定方法。
translated by 谷歌翻译
亚马逊客户服务每年为数百万客户联系提供实时支持。尽管Bot-Resolver有助于自动化一些流量,但我们仍然看到对人类代理商的需求很高,也称为主题专家(SME)。客户在不同域中的问题(返回策略,设备故障排除等)进行宣传。根据他们的培训,并非所有中小型企业都有资格处理所有联系人。与合格的中小型企业的路由联系是一个非平凡的问题,因为中小企业的域名资格受训练质量的影响,并且可以随着时间的推移而改变。为了在同时学习真正的资格状态的同时,我们建议使用非参数上下文的强盗算法(K-Boot)以及资格控制(EC)算法来制定路由问题。 K-Boot模型以$ K $ -NN选择的类似样品和Bootstrap Thompson采样进行探索,并以类似的样本进行奖励。 EC通过最初符合系统的资格过滤武器(SME),并动态验证该信息的可靠性。提出的K-boot是一种通用匪徒算法,EC适用于其他土匪。我们的仿真研究表明,K-boot在最新的匪徒模型上进行性能,并且当存在随机弹性信号时,EC会提高K-Boot性能。
translated by 谷歌翻译
视频中的多目标跟踪需要解决相邻帧中对象之间一对一分配的基本问题。大多数方法通过首先丢弃不可能的对距离大于阈值的不可能对解决问题,然后使用匈牙利算法将对象链接起来以最大程度地减少整体距离。但是,我们发现从重新ID特征计算出的距离的分布可能在不同的视频中有很大差异。因此,没有一个最佳阈值可以使我们安全丢弃不可能的对。为了解决该问题,我们提出了一种有效的方法来实时计算每对对象的边际概率。边际概率可以视为标准化距离,比原始特征距离明显稳定。结果,我们可以为所有视频使用一个阈值。该方法是一般的,可以应用于现有的跟踪器,以在IDF1度量方面获得大约一个点改进。它在MOT17和MOT20基准上取得了竞争成果。此外,计算的概率更容易解释,从而有助于后续后期处理操作。
translated by 谷歌翻译
尽管单眼3D姿势估计似乎在公共数据集上取得了非常准确的结果,但它们的概括能力在很大程度上被忽略了。在这项工作中,我们对现有方法进行系统评估,并发现在对不同的摄像机,人体姿势和外观进行测试时,它们会出现更大的错误。为了解决这个问题,我们介绍了VirtualPose,这是一个两阶段的学习框架,以利用该任务特定的隐藏的“免费午餐”,即免费生成无限数量的姿势和摄像头,以免费培训模型。为此,第一阶段将图像转换为抽象的几何表示(AGR),然后第二阶段将它们映射到3D姿势。它从两个方面解决了概括问题:(1)可以在不同的2D数据集上对第一阶段进行培训,以降低过度合适外观的风险; (2)第二阶段可以接受从大量虚拟摄像机和姿势合成的不同AGR训练。它的表现优于SOTA方法,而无需使用任何配对的图像和3D姿势,从而为实用应用铺平了道路。代码可从https://github.com/wkom/virtualpose获得。
translated by 谷歌翻译
未经监督的域名自适应人员重新识别(Reid)已被广泛调查以减轻域间隙的不利影响。这些作品假设目标域数据可以一次访问。然而,对于真实世界的流数据,这会阻碍及时适应改变数据统计数据以及对增加样本的充分利用。在本文中,为了解决更实际的情况,我们提出了一项新任务,终身无监督域自适应(Luda)人Reid。这是具有挑战性的,因为它要求模型不断适应目标环境的未标记数据,同时减轻灾难性的遗忘,为这么细粒度的检索任务。我们为这项任务设计了一个有效的计划,被称为Cluda-Reid,在那里反忘记与适应协调。具体地,提出了基于元的协调数据重放策略来重播旧数据并以协调的优化方向更新网络,以便适应和记忆。此外,我们提出了符合基于检索的任务的目标的旧知识蒸馏/继承的关系一致性学习。我们设置了两个评估设置来模拟实际应用方案。广泛的实验展示了我们Cluda-Reid与具有动态目标流的静止目标流和场景的方案的有效性。
translated by 谷歌翻译
数据增强(DA)已被广泛调查,以便于多项任务中的模型优化。然而,在大多数情况下,对于具有某种概率的每个训练样本随机地对数据增强进行数据增强,这可能会产生内容破坏和视觉模糊。为了消除这一点,在本文中,我们提出了一种有效的方法,将选择,以基于样本内容和网络培训状态选择要以确定性和在线方式增强的样本。具体而言,在每批中,我们首先确定增强比,然后决定是否以这种比率增强每个训练样本。我们将此过程塑造为两步马尔可夫决策过程,并采用分层强化学习(HRL)来学习增强策略。以这种方式,可以有效地缓解选择用于增强的样品在选择样品时的负面影响,并且改善了DA的有效性。广泛的实验表明,我们所提出的选择可以适应许多常用的DA方法,例如混合,切割,自动化等,以及改善图像分类和细粒度图像识别的多个基准数据集中的性能。
translated by 谷歌翻译
我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像,我们将它们分成非重叠补丁,并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌,我们估计它是否包含目标对象和相应的大小。该方法的优点是,该特征从匹配中学到,最终匹配。因此,功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能,然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外,该方法在一个GPU上实现了实时推理速度(约为40美元的FPS)。代码和模型将被释放。
translated by 谷歌翻译
深度学习中的混乱是一般不利的,在他们渗透特征陈述的普遍之规方面都有害。因此,学习没有干扰混淆的因果特征很重要。基于最先前的因果学习方法采用后门标准来减轻某些特定混淆的不利影响,这需要明确的混淆识别。然而,在真实的情景中,混乱通常是多种多样的,并且难以被识别。在本文中,我们提出了一种新的混淆器识别因果视觉特征学习(CICF)方法,这避免了识别混淆的需求。 CICF基于前门标准模拟不同样本中的干预,然后从优化的角度近似于对实例级干预的全局范围中间效应。通过这种方式,我们的目标是找到可靠的优化方向,避免了混淆的介入效果,以学习因果特征。此外,我们发现CICF与流行的元学习策略MAML之间的关系,并提供了MAML首次从因果学习的理论视角来解释为什么MAML工作。由于有效地学习了因果特征,我们的CICF使模型能够具有卓越的泛化能力。域泛化基准数据集的广泛实验证明了我们的CICF的有效性,从而实现了最先进的性能。
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译